Вернуться на предыдущую страницу

Исследование структуры устройства и приложения распознавания речи

Иванченко Ю. С., Алимбарашвили С.И., Завадская Т. В.

Источник: IV Республиканская, с международным участием, научная интернет-конференция, Современные информационные технологии, ДонНУЭТ – 2021, С.133-135

Аннотация

В данной работе рассмотрены принципы создания приложения для распознавания речи. Также приведён структурный анализ устройства восприятия голоса и речи машинной.


Создание средств, реализующих управление компьютером посредством речевых команд, и распознающих голос человека востребовано в настоящее время. Приём речевой информации должен осуществляться с учетом требований к удобству ввода звуковых данных пользователя, например: ввод, запись, идентификация речи должен происходить без использования дополнительных устройств звукозаписи и звуко-обработки. Управление компьютером с помощью голоса может пригодится для людей с ограниченными возможностями или для повышения комфорта пользования функциями операционной системы. Программы распознавания музыки, как речи, используются для поиска исполнителя или названия песни по звучанию определённого отрезка файла.

Распознавание речи осуществляется путем сравнения введённых звуковых данных с уже имеющимся набором в базе данных фонем или с применением сравнения по спектральной плотности сигнала. Так как сигнал состоит из определенных составляющих – отсчетов, несущих некие информативные признаки исходной речи, поэтому принято использовать для сравнения частиц речи – фонемы, затем слоги и слова. Стоит отметить, что преимущества спектрального анализа состоит в исключении усредненного значения шума из общего спектра [1].

Следующий этап в развитии распознавания речи заняли скрытые марковские модели (СММ). СММ – это метод изменений состояния модели, которые происходят последовательно и случайным образом с такой закономерностью, что следующее состояние модели зависит от предыдущего [2].

В настоящее время используется метод распознавания речевых команд – нейронные сети, данный метод способен оценивать функции, при большом количестве параметров в них. Нейроны взаимодействуют между собой с помощью соединений, которые, в свою очередь имеют численные веса [2]. Примером создания сети стала модель работы нейронов человека.

На основе вышеописанных методов можно реализовать распознавание звуковых данных только при рассмотрении модулей, на которых будет создаваться соответствующее речевое устройство или приложение. Основной перечень модулей, следующий [2]: